偶然的ECHO,必然的ALEXA | 【AI智能音箱登陆战】
龙梦竹,思必驰CMO
智能硬件物联网资深人士,知名的投资顾问和咨询专家,在多个人工智能创新项目中担任导师。负责思必驰语音技术在物联网领域(车载、家居、机器人)的市场渠道合作,专注智能语音技术在智能硬件市场的应用方向和前沿发展,擅长整合行业资源和市场需求分析,对语音技术的运用领域和交互体验有非常深刻的理解,连续两年代表思必驰出席“乌镇·世界互联网大会”并分享中国AI发展。
01
芯片超人花姐开场:
上月底我们芯片超人在张江举办了一场很热闹的【AI智能音箱之夜】,我们从原厂到方案到供应链到资本,把AI智能音箱这件事情完整的说了一遍。
当时在行业里刷了屏,有一万多人看到了我们那张海报,五千多人加入了我们的群,两千多人参加了线上的直播,有一百多人到达了上海张江的IC咖啡参加活动。
之后有很多的用户找到我们希望找这样的方案、那样的方案。总结下来大概有三种情况:
1、对方很明确的说他要做什么、需要什么,但是很少只占总数的10%-20%。
2、对方就是要做音箱要做什么样的智能音箱不知道。询问我什么智能音箱比较好。我给他推荐了这个月底我们再做一场活动来做关于方案的事情,具体什么方案好,让他来挑一挑。
3、对方希望在各种各样的智能硬件产品上增加语音交互,例如:智能推车、智能家具开关、智能灯等。
这个月发生了非常多的变化,阿里前阵推出来天猫精灵499元,双十一下降到99元。
天猫精灵只需99元
两天后京东的智能音箱降到了49元,智能音箱的战场一下子就变得极度的火热,99/49这样的价位,那我们在座的中小企业机会还在哪里呢?
我相信大家的机会就在第三类,大家在做各种各样的智能硬件的产品,各种各样的产品,加入了语音交互之后,开始有了人工智能,开始有了万物互联的能力。
我们今天的主要目的就是给大家讲讲有哪些方案,让大家来选。我们也邀请了方案商入驻,中间也有茶歇的时间,大家可以和方案商去沟通,最后我们会请各个方案商来介绍自己。
我们首先请出的是的思必驰CMO 龙梦竹小姐,其所在的思必驰公司在智能语音交互技术方面业内领先,下面我们欢迎龙总。
02
龙总的演讲内容:
今天是智能音箱专场,所以从大家比较熟悉的Echo讲起。
Echo是国际上唯一的智能音箱爆款,从14年推出到现在有很多的厂商,不管国际还是国内都在做智能音箱这个方向,包括去年有一些其他一些方向OEM厂商转做智能音箱。
从智能音箱我们看到的火热、暴热,并不是Echo智能音箱会爆发,我们从智能音响看到了背后智能助理终端的火热。从国际上来看,不只是亚马逊,其他的国际品牌也在做智能音箱或类智能音箱的方向。15年的微软,16年的谷歌,今年苹果都推出了相应的产品。
国际巨头公司的音箱产品
我们可以把以上四种产品理解成都是智能音箱,但是从技术的方向来讲,从整个物联网的大方向上来讲,我们说他是智能助理的设备终端会更合适。它们在做的是物联网的智能家居环境里的人工智能操控中心。
在整个物联网的发展浪潮里面人机交互是一个入口,以智能家居为例:前两年所谓的智能家居,其实最多只能算是家居操控自动化,下载APP、快捷操纵助手来帮助实现功能。
现在人工智能的技术不管是语音、图像、人脸、手势、虹膜、指纹等多种形式的人工智能的发展让整个的智能家居控制化到智能家居做转变。
在国际上亚马逊、微软、谷歌、苹果在做智能音箱,在国内也有很多厂家在做。像刚刚花姐提到的阿里,联想、小米、叮咚等,小米的小AI同学是小米推的第二款智能音箱,去年他们推出了一款物联网智能音箱,那个音箱是不带远场交互的,小AI同学无论是外形还是结构更符合远场的交互。
国内的智能音箱
从现在智能音箱的火热我们看到了自然口语交互,带来了新的用户需求。
不管是做智能音响也好还是做智能水杯、智能花瓶、智能手推车,凡是你需要语音交互,那么在这个环节下,需要的不仅是语音识别,而是自然口语交互和自然口语对话。
传统的语音技术
传统的语音技术是个线性的过程,技术理念是对信号进行采集和处理,对语义进行解析,解析后进行反馈,在这样的一个反应里面,语音是键盘的替代品,很多时候并不好用。
传统的语音技术只能识别、解析,但是在真实的使用环境里,解析并不等于理解。
解析与理解的例子
https://v.qq.com/txp/iframe/player.html?vid=d13270118kp&width=500&height=375&auto=0
几年前机器虐人
举个例子:等周二徐春来到深圳后约他一点钟在九寨沟喝茶。
任何一家语音厂商无论是国内还是国外对这句话的识别应该不会出现问题。
在解析的时候每个字、每个词也都能解析正确,但是在放到人机交互里面去的话,你跟机器说我约他喝茶,机器会发生很多混淆,因为单独的解析不等于理解。
这个人是叫许春来,还是许春来到深圳?一点钟是下午一点还是凌晨一点?九寨沟是我们去深圳开车去九寨沟,还是我们去一家叫九寨沟的咖啡厅?
https://v.qq.com/txp/iframe/player.html?vid=b1327d9wspg&width=500&height=375&auto=0
现如今,人虐机器
认知交互模型
在初期的人类和机器的交流要求人类要简单的、直接的、没有任何一个地方意境打断及多理解。
在整个物联网的环境下我们要求是整个交互更自由,更随心,人机交互说他方便也好说他给用户提供意图也好,在于能够让人随心的去交流。
▐ 从技术角度出发:
从技术的角度来讲,人机交互,语音交互最核心的用户并不是我们这群正常的青壮劳动力,而是像一些小孩、老人、一些知识没有那么高的。
那么在这种情况下,如果按以前的语音技术,你要用一支智能的笔,要跟它交互,我先给你一个长长的说明书:你可以怎么怎么说。
▐ 从用户出发:
对用户来讲,整个人机交互本身是为了方便,传统的语音单点技术只会让人机交互变得复杂,所以现在大家做的都是一种认知型的语音交互。
认知的语音交互是和传统的语音交互识别的框架下面加入一些其他的东西,包括对情景的感知,对场景的理解,对背后内容的挖取。
▐ 语音合成:
现在对比语音技术我们比的是合成。对比两家的技术好不好是你们家的合成音好不好,我们家的合成音怎么样。在过去的四年大家讲得是语音识别,你们家的识别率是多少,我们家的是多少。
▐ 语音交互:
现在讲语音现在讲的是整个的语音交互,语音识别、语义理解、语义合成,还包括后端的对话管理及内容服务。
▐ 厂商的尴尬:
做技术厂商有时候会比较尴尬,比如你跟音响说:“我要听许巍的《生活不是眼前的苟且》”。音箱说:“对不起找不到你要的歌”。
对消费者来说会觉得识别不好、技术不好。但实际上音箱识别出来了,但是它背后的内容不支持,导致这家的音乐版权IP里并不存在这首歌。
对用户来讲我们现在做的事情,底层的感知的东西包括市别跟合成,中间我们要做意图得理解跟意图得跟踪。在上面我们要做后面的对接的内容服务。
▐ 智能音箱的拓展:
以智能音箱为例,我的智能音响能播放歌曲,能够播放新闻,能够帮我点餐,能够点外卖买东西,那么这些所有内容对接的东西是由我们跟硬件厂商对接来完成的,我们会提供一些部分通用的库。
比如说你的音箱要针对小孩做的一些硬件一些针对小孩的Echo,你把它叫做故事机或小孩的音箱,那你背后有些更针对的内容,那内容的方向需要我们跟厂商一起联合来打通的,所以现在讲语音讲得是整个交互的链条。
因为在认知型的交互模型里面,我们把口语交互的很多不确定性在情景理解和多重交互里去把它消除。
▐ 噪音的种类:
在情景里面我们把噪音分为两种:加信噪声和成信噪声。
加信噪声可以简单理解为环境中的噪声,成信噪声是和电子噪声相辅相成存在的。
在这个里面你要让机器知道哪些机器在发的播报的声音,哪些是我的设备震动产生的声音,哪些是用户的声音,哪些是旁边环境的噪音。
▐ 降噪的实现:
在音箱里面,降噪也是一个非常重要的功能。
降噪的性能主要有三方面来完成。
1、算法上的降噪,即我们所理解的算法上的回声消除。
2、硬件上会从芯片内部降噪,包括降噪的麦克风、带有算法降噪的芯片。
3、音箱的整体结构里面降噪。什么样的材质振动频率会最小,噪音会最低。
从现在的大环境下,互联网到移动互联网到物联网,大数据的结构在翻天覆地的变化。
在互联网的时代,在PC机上去输入信息,搜索,大部分是通过文本信息交流。
在移动互联网时代我们通过语音/文字来交流。
在物联网时代,任何一个数据背后都有一个联网的数据库做交互,可以实现口语对话的交互。
对话不仅仅是语音交互的信息,还包括文本、语音、图像。语音对话是把语音转换成文版,然后处理,再以语音的形式输出。
对话交互的类型
▐ 对话的类型:
对话的四种类型:问答式、任务式、命令式、闲聊式。
最浅显的是命令式交互,单轮的,开灯、关灯、开机、关机等不需要联网。
闲聊和问答式对话是相对应的,闲聊是多轮的,问答是单轮的。
闲聊式对话没有非常明确的主题,问答式有非常明确的主题。问答式对话有正确错误之分,例:现在的美国总统是谁?回答只有一个正确的答案。
闲聊式没有正确错误之分,它只在乎聊天方式,你给我的内容反馈好不好玩,有没有意思。
命令式和任务式对话是为了让产品能用,问答式和闲聊式对话是为了让产品更好用,为了更加和用户更加有粘性,使用户爱上使用这个产品,而不是当个工具。
偶然的Echo,必然的Alexa为什么这么说?
大家一般把Echo看作最棒的,不管什么样的产品都会问你和Echo的区别是什么,能做到Echo的水平吗?
Echo只是偶然是个音箱,因为在智能家居的环境里音箱是最好的音频承载的终端,所以大家从音箱的角度出发。
在整个AI的环境下,万物都可做的智能,把音箱挖空,做成花瓶的形状是不是就是个智能的可交互的花瓶?
现在的整个智能音箱太火爆,巨头在做,中小型的创业公司也在做,但是还有很多在这个行业里对这能交互有需求的一些产品,比如:故事机、智能电视等。
Echo只不过是偶然以智能音箱的方式呈现,他背后反应的是Alexa的能力,Echo的所有能力都是源于Alexa。在这样的环境下可以做出来不同形式的Echo。
国内的对话定制平台
我们在比较平台的时候,需要看三个能力:
1、底层技术的能力,现在有一个问题,技术提供方的技术赶不上产品的需求。对话平台 在现在的人机对话里面,语音不是核心,智能对话的才是方向。
2、音箱能让我们看到未来的一个发展方向,但是不是未来的唯一出入
3、要打造更有特色的智能硬件化的产品,必须把自己的产品功能想好。
欢迎加入认证方案商
下面是我们搞过的事情
▼
【芯片超人课堂】
【AI 智能音箱】
【芯片超人】